본문으로 건너뛰기

1장. 데이터 분석

이 장에서는 데이터 분석의 개념과 기본 내용을 설명한다. 데이터 분석 뿐만 아니라 어떤 것을 배우더라도 개념을 정리하는 것은 중요하며 막연하게 생각하고 있던 것을 처음 시작할 때 확실하게 해두지 않으면 진행하면 잦은 시행착오을 하게 되고 잘못 이해해서 잘못된 결과물을 얻게 된다.

데이터 분석의 개념

데이터 분석은 데이터에서 알고 싶은 사실을 알아내거나 어떤 결정을 할 때 도움이 되는 근거를 찾는 일을 말한다. 풀어서 설명하면 어떤 데이터를 사람들에게 알아보기 쉽게 설명하고 쓸만한 사실도 찾아서 알려주며 데이터를 근거로 어떤 일을 해도 되는지 아닌지 결정을 돕는 일이다. 결정을 돕는 다는 것 때문에 데이터 분석가가 어떤 중요한 의사 결정을 한다고 생각해서는 안된다. 데이터를 분석해서 어떤 결정을 잘 하도록 돕는 것이지 결정을 대신 해주는 것은 아니다. 어떤 비즈니스에서 중요한 결정이나 판단을 수학적, 과학학 계산 결과에 그대로 맡기는 경우는 현실 세계에는 거의 없으며 경영자나 결정권을 가진 사람이 하는 것이다.

((프롬프트)): 데이터 분석의 개념을 설명해주세요 ((AI챗봇 답)): 데이터 분석은 데이터에서 유용한 정보와 인사이트를 추출하는 과정입니다. 이는 데이터를 수집, 정리, 처리하고 의미 있는 패턴을 발견하여 의사결정에 도움을 주는 활동을 포함합니다.

데이터 분석의 주요 개념:

  1. 데이터 수집: 다양한 소스에서 필요한 데이터를 모으는 과정
  2. 데이터 전처리: 결측치 처리, 이상치 제거, 데이터 정규화 등을 통해 데이터를 분석 가능한 형태로 변환
  3. 탐색적 데이터 분석(EDA): 데이터의 기본 특성과 패턴을 시각화와 통계적 방법으로 파악
  4. 통계적 분석: 기술통계와 추론통계를 활용하여 데이터의 특성과 관계를 분석
  5. 모델링: 데이터 기반 예측이나 분류를 위한 수학적 모델 구축
  6. 결과 해석: 분석 결과를 비즈니스 맥락에서 이해하고 의사결정에 활용

데이터 분석은 비즈니스 인텔리전스, 과학 연구, 사회 현상 이해 등 다양한 분야에서 중요한 역할을 합니다. 효과적인 데이터 분석을 위해서는 통계학, 프로그래밍, 도메인 지식이 필요합니다.

위의 AI챗봇의 답은 내용의 분량과 포함되는 내용의 차이가 있어 AI챗봇에서 선택한 모델과 환경 그리고 설정값에 따라 답은 조금 다르게 나온다. 데이터와 관련된 것은 모두 데이터 분석에 넣는 경향이 있어 어디까지 데이터 분석에 포함해야 하는지는 과거부터 많은 논쟁과 변화가 있었고 그런 것이 챗봇의 답변이 서로 다르게 나오게 하는 원인이기도하다. 어쨌든 최근에는 위와 같은 일이 데이터 분석으로 정리되고 있다. 하지만 미래에는 또 바뀔 수도 있다.

위의 대답 중에 중요한 것이 “데이터 분석의 결과물은 의사결정에 참고자료로 쓴다”라는 것이다. 데이터 분석의 주된 목적이다. 참고자료로 주기 위해서 분석결과를 제출 또는 공유해야 하는데 그래서 데이터 분석가가 쓰는 것이 데이터 분석 보고서다. 데이터 분석의 결과물은 어떤 의사결정에 도움이 되도록 설명하고 통찰을 찾는 데 도움을 주기위해 작성해야 한다. 보고서를 알아보기 쉽게 써야하며 슬라이드를 작성한 후 분석한 사람이 직접 설명해야 할 수 있다.

의사결정에 도움을 주는 단계를 조금 확장해서 데이터 과학의 범위에 포함된 작업까지 한다면 기계학습으로 상품 추천 모델이나 판별 모델을 만들어서 서비스에 배포할 수도 있는데 그런 것은 모델 개발이 된다. 위에서 말한 “모델링”에 포함된다. 모델링에 대해서는 후에 더 자세히 설명할 것이다. 데이터 과학은 데이터 분석 보다 범위가 좀 더 넓다.

데이터 분석에 대해서 더 자세히 알아보자.

데이터 분석(Data Analysis)의 어원

영어의 analysis(분석, 어낼리시스라고 발음)이라는 단어는 그리스어에서 유래한 것으로 풀어해치고 분해한다는 뜻이 있다. 원래 단어 그대로 어떤 것을 풀어해쳐서 더 작고 이해하기 쉽게 분해해서 파악하거나 크게 뭉치고 요약해서 그 안에 숨겨진 패턴, 관계, 의미를 발견하는 것이다. 데이터 분석은 그 대상이 데이터가 되는 것이다.

((프롬프트)): 데이터 분석의 어원에 대해서 알려주세요 ((AI답)): 데이터 분석(Data Analysis)이라는 용어의 어원은 다음과 같습니다.

  1. 데이터(Data)
  • '데이터'는 라틴어 'datum(주어진 것)'의 복수형입니다.
  • 17세기부터 수학, 과학 분야에서 '사실', '정보'라는 의미로 사용되었습니다.
  1. 분석(Analysis)
  • '분석'은 그리스어 'analyein'에서 유래하였으며, 'ana(위로)'와 'lyein(풀다)'의 합성어입니다.
  • 즉, '풀어헤치다', '분해하다'라는 뜻을 가지고 있습니다.

따라서 '데이터 분석'은 '주어진 정보를 체계적으로 분해하고 검토하여 의미를 찾아내는 과정'이라는 의미를 담고 있습니다. 현대적 의미의 데이터 분석 역시 복잡한 데이터를 분해하여 인사이트와 의미를 도출하는 것을 목표로 합니다.

데이터 분석은 최근에 통계학, 컴퓨터 과학, 인공지능 등 다양한 과학 분야의 기술과 방법이 결합되어 더 발전해 왔다. 현대 데이터 분석은 IT기술과 인문,사회학적 지식을 이용해 데이터에서 가치있는 의미를 찾는 것이다.

데이터 분석을 위해 필요한 능력

“데이터 분석을 하기 위해서 공부해야 할 것은 어떤 것인가?” 또는 “데이터 분석가가 되려면 뭘 배우면 되는가?” 이른 질문은 전문 데이터 분석가 또는 데이터 과학자가 이 분야에 호기심이 있거나 직업을 바꾸고 싶은 사람 그리고 취업을 하는 사람들에게 학생들에게 매우 자주 듣는 질문이었다. AI챗봇이 나오기 전까지는 그랬다. “데이터 분석을 배울 수 있는 책 한권만 소개해 주세요”라는 질문도 자주 듣는다. 하지만 한 권으로는 데이터 분석을 다 배울 수는 없다. 단지 한 권 분량의 책으로는 데이터 분석의 기본적인 것을 알고 간단한 분석 작업을 시작하는 것을 배울 수는 있다. 이 책도 시작하는 사람을 위한 지침서이며 데이터 분석의 모든 부분을 다를 수 없다.

데이터 분석을 하는 데 필요한 능력(skill, 스킬)은 기술적인 것은 통계학, 수학, 프로그래밍, 엑셀, 데이터베이스(SQL언어 포함)이 있고 인문학적인 것으로 글쓰기 능력과 스토리를 설명하고 발표를 잘 할 수 있는 발표(presentation, 프리젠테이션)도 필요하다.

((프롬프트)): 데이터 분석을 하기 위해서 필요한 능력을 알려주세요 ((AI챗봇 답)): 데이터 분석을 하기 위해 필요한 능력은 다음과 같습니다.

  1. 기초 통계 및 수학 지식
  • 데이터의 분포, 평균, 분산, 상관관계 등 기본 통계 개념 이해
  • 기초적인 수학적 사고력
  1. 프로그래밍 능력
  • Python, R 등 데이터 분석에 널리 사용되는 언어 활용 능력
  • 데이터 처리 및 자동화 스크립트 작성
  1. 데이터 전처리 및 정제 능력
  • 결측치, 이상치 처리
  • 데이터 정규화, 표준화 등 데이터 품질 개선
  1. 데이터 시각화 능력
  • 그래프, 차트 등 시각적 도구를 활용한 데이터 해석
  • Matplotlib, Seaborn, Plotly 등 시각화 도구 사용
  1. 도메인 지식
  • 분석 대상 분야(예: 마케팅, 금융, 의료 등)에 대한 이해
  • 데이터의 맥락 파악
  1. 문제 해결 및 논리적 사고력
  • 데이터에서 인사이트 도출
  • 분석 목표에 맞는 방법론 선택
  1. 머신러닝 및 통계적 모델링 이해
  • 기본적인 머신러닝 알고리즘 및 통계 모델 활용 능력
  1. 커뮤니케이션 및 리포트 작성 능력
  • 분석 결과를 이해하기 쉽게 설명
  • 시각화 및 문서화
  1. 도구 및 소프트웨어 활용 능력
  • Excel, SQL, Jupyter Notebook, Tableau 등 데이터 분석 도구 사용
  1. 지속적인 학습과 호기심
    • 새로운 데이터, 도구, 트렌드에 대한 관심과 학습

이러한 능력들을 종합적으로 갖추면 데이터 분석 업무를 효과적으로 수행할 수 있습니다.

이 질문에 대한 AI챗봇의 답은 서비스별로 다르게 나오는데 기본적인 맥락은 거의 비슷하다. 데이터 분석을 하기 위한 능력은 결국 데이터 분석가의 능력을 말하는 것인데 크게 4가지로 나눌 수 있다.

통계와 수학

데이터 분석이 통계에서 시작했으므로 통계는 필수적으로 필요하다. 그리고 통계학은 응용수학의 하위 학문이라고 할 정도로 고등수학이 필요하며 어려운 통계학 분야는 대학수준 이상의 수학능력이 필요하다.
통계학을 하려면 수학을 해야 하는 것은 당연하다. 데이터 분석을 배우려는 사람들 중 어려운 수학과 통계로 인해 중도 포기하는 사람을 상당히 많다. 특히 이공계가 아닌 인문계라면 데이터 분석에 필요한 수학고 통계를 대부분 배우지 않았을 가능성이 높다. 하지만 수학과 통계를 잘하는 사람만 데이터 분석가 될 수 있는 것은 아니다. 중학교 수준의 수학지식으로 기초적인 데이터 분석을 하기 위한 수학으로 충분하며 통계학도 마찬가지다. 필요한 것은 중간중간 배우고 이해해 나가면 할 수 있으며 필요한 것은 공부해야 하겠지만 이제 어려운 수학책과 통계책, 이해하기 힘든 난해한 강의로 배우기 힘들었던 것을 AI챗봇을 이용해 더 쉽게 익힐 수 있게 되었다. 이 책의 다른 부분에서 수학과 통계를 AI챗봇을 이용해서 비교적 쉽게 배우는 과정을 설명할 것이다. 물론 아무런 노력과 어려움없이 쉽게 배우는 것은 불가능하다. 통계와 고등수학은 원래부터 매우 어렵고 거의 대부분의 사람들에게도 그렇다.

프로그래밍 능력

데이터 전처리와 정제는 도구를 사용해서 처리하는데 최근에는 도구를 바로 쓰기 보다는 데이터 처리 플랫폼을 이용하며 대부분 프로그래밍으로 처리한다. 그래서 프로그래밍 능력이 핈요하다. 데이터 시각화도 도구를 사용하지 않으면 프로그래밍을 해야 하는데 데이터 시각화 도구가 가격이 비싸고 일반화를 하지 못하기 때문에 최근에는 역시 프로그래밍으로 많이 처리한다.

도메인 지식

도메인 지식은 업무 지식 또는 분야 지식이라고 할 수 있다. 예를 들어 자동차 회사 소속의 데이터 분석가라면 자동차와 관련된 데이터를 분석하는 일이 많을 것이다. 단순히 데이터만 가지고는 쓸만한 사실을 찾고 통찰을 얻기 어렵다. 자동차와 관련된 지식을 알고 있어야 한다.

자동차의 기본 구조와 부품(엔진, 변속기, 섀시, 전장 등)에 대한 이해, 자동차 생산 및 제조 공정(조립, 품질 관리, 생산 라인 등)에 대한 지식, 차량 판매, 마케팅, 유통 구조에 대한 이해

  • 자동차 시장 트렌드(전기차, 하이브리드, 자율주행 등)와 산업 동향
  • 차량 운행 데이터(주행 거리, 연비, 운전 습관, 정비 이력 등)의 해석 방법
  • 자동차 관련 법규 및 인증 제도(안전, 환경 규제 등)
  • 고객 특성 및 소비자 행동 분석(구매 패턴, 선호 옵션 등)
  • 자동차 보험, 금융, 중고차 거래 등 연관 산업에 대한 이해

OTT의 동영상 콘텐츠를 분석한다면 OTT 콘텐츠의 종류, 감독 ,작가, 배우, 장르, 시청자 연령대, 시청 시간대, 시청 패턴 등에 대한 지식이 필요하다. 예를 들어 특정 장르의 콘텐츠가 어떤 시간대에 많이 시청되는지, 어떤 배우가 출연한 콘텐츠가 인기가 있는지, 시청자들이 어떤 패턴으로 콘텐츠를 소비하는지 등을 분석하려면 OTT 산업과 콘텐츠에 대한 이해가 필요하다.

그외 모든 분야의 지식도 된다. 도메인 지식이 필요 없는 데이터 분석은 거의 없다. 이런 도메인 지식은 그 업무를 전문적으로 회사나 기관에 근무하거나 전문적으로 교육을 받는 경우에 습득할 수 있다. 때문에 그런 환경에서 일한 경험이나 교육을 받을 수 없다면 도메인 지식을 얻는 것이 가장 막막한다. 어떤 회사에서 자신들이 가지고 있는 조직내 지식이나 정보를 외부에 노출하지 않기 때문에 얻을 수가 없는 것이다. 이런 경우 도메인 지식은 그 회사의 담당자와 미팅을 통해서 묻고 답하는 형식으로 얻거나 필요한 지식에 대해 설명을 요청해서 받는다면 가능하다. 만약 도메인 지식을 얻지 못한다면 데이터 분석을 잘하기는 무척 어렵다.

커뮤니케이션 능력

데이터 분석가는 분석 결과를 다른 사람들에게 설명하고 공유해야 한다. 아무리 뛰어난 분석 결과를 도출했더라도 이를 효과적으로 전달하지 못하면 그 가치가 떨어진다. 특히 비전문가들에게 복잡한 분석 결과를 이해하기 쉽게 설명하는 능력이 중요하다. 이를 위해 데이터 시각화 기술과 함께 명확한 보고서 작성 능력, 프레젠테이션 스킬이 필요하다.

위의 네가지 분유를 제외한 학습 의욕이나 열정은 데이터 분석외의 일에도 해당되는 것이며 기계학습(machine learning, 머신러닝)과 통계적 모델은 데이터 분석의 고급 영역으로 데이터 과학의 범주에 들어간다. 데이터 분석을 시작하기 위해서 처음부터 잘해야 하는 것은 아니다.

도메인 지식

도메인 지식은 분석하고자 하는 분야에 대한 전문적인 이해와 지식을 의미한다. 데이터 분석을 잘 하기 위해서는 단순한 기술적 능력 외에도 해당 분야의 맥락과 특성을 이해하는 것이 필수적이다. 주어진 데이터만으로는 좋은 분석을 할 수 없다.

도메인 지식의 중요성

((프롬프트:)) 데이터 분석에서 도메인 지식이 왜 중요한지 요약해서 알려주세요 ((AI챗봇 답)) 도메인 지식은 데이터 분석에서 매우 중요한 역할을 합니다. 그 이유는 다음과 같습니다.

  1. 데이터의 맥락 이해
  • 도메인 지식이 있으면 데이터가 생성된 배경과 맥락을 이해할 수 있어, 단순한 수치 이상의 의미를 파악할 수 있습니다.
  1. 중요 변수 및 인사이트 도출
  • 어떤 변수가 중요한지, 어떤 패턴이 의미가 있는지 식별할 수 있습니다.
  • 불필요한 정보와 핵심 정보를 구분할 수 있습니다.
  1. 정확한 해석과 의사결정
  • 분석 결과를 실제 현장이나 비즈니스에 맞게 해석할 수 있습니다.
  • 실질적인 의사결정에 도움이 되는 인사이트를 도출할 수 있습니다.
  1. 이상치 및 오류 탐지
  • 도메인 지식이 있으면 단순한 통계적 이상치가 아닌, 실제로 문제가 되는 데이터(오류, 입력 실수 등)를 구분할 수 있습니다.
  1. 현실적인 가설 설정
  • 분석 전에 현실적이고 검증 가능한 가설을 세울 수 있습니다.

즉, 도메인 지식이 부족하면 데이터 분석 결과가 실제 상황과 동떨어지거나, 잘못된 결론을 내릴 위험이 높아집니다.
따라서 데이터 분석가는 기술적 역량뿐 아니라 분석 대상 분야에 대한 이해도 함께 갖추는 것이 매우 중요합니다.

다양한 분야의 도메인 지식 예시

  • 마케팅: 소비자 행동, 시장 세분화, 마케팅 채널 특성 이해
  • 금융: 금융 상품, 리스크 관리, 규제 환경에 대한 지식
  • 의료: 질병 메커니즘, 치료 프로토콜, 의료 시스템 이해
  • 소매업: 재고 관리, 공급망, 소비자 구매 패턴 이해
  • 제조업: 생산 공정, 품질 관리, 설비 운영에 대한 지식

도메인 지식과 데이터 분석 기술을 결합할 때 가장 가치 있고 실행 가능한 인사이트를 도출할 수 있습니다.

데이터 분석의 핵심 요소

  • 데이터 수집: 다양한 소스로부터 필요한 데이터를 획득하는 과정
  • 데이터 전처리: 결측치 처리, 이상치 제거, 데이터 정규화 등을 통해 분석 가능한 형태로 변환
  • 데이터 탐색: 기술 통계, 시각화 등을 통해 데이터의 특성과 패턴을 파악
  • 모델링 및 분석: 통계적 기법이나 머신러닝 알고리즘을 적용하여 인사이트 도출
  • 결과 해석 및 커뮤니케이션: 분석 결과를 이해하기 쉽게 설명하고 의사결정에 활용

데이터 분석의 중요성

현대 사회에서 데이터 분석은 다음과 같은 이유로 중요성이 증가하고 있습니다:

  • 데이터 기반 의사결정의 정확성 향상
  • 비즈니스 프로세스 최적화 및 효율성 증대
  • 고객 행동 및 시장 트렌드 이해
  • 새로운 기회 발견 및 혁신 촉진
  • 리스크 관리 및 예측 능력 향상